临床试验报告的统计学考虑：协变量调整、亚组分析等_统计与绘图_实用技巧

《Journal of the American College of Cardiology》上曾发表了系列文章，介绍临床试验报告的一些统计学考虑^[1]。本期内容旧话重提，重新审视一下临床研究常用到的一些统计学方法，包括协变量调整、亚组分析等。

协变量调整

观察性研究（比如，病例对照研究和队列研究）经常要考虑到因组间因素不均衡可能造成的混杂。为了减少混杂因素对于研究结果的影响，可针对混杂因素进行匹配、分层分析或协变量调整等（最近推送了多篇介绍混杂因素调整的文章，还没看的小伙伴赶快查看历史消息）。但是，随机对照研究还需要考虑协变量的调整吗？几个实例告诉你答案~

1. RCT应该像观察性研究一样调整基线变量吗？

EMPHASIS-HF研究^[2]评价了依普利酮治疗慢性心衰患者的获益情况，共纳入2737名患者，平均随访21个月。在评价组间疗效时，研究者应用Cox等比例风险模型，调整了包含年龄在内的13个基线变量。如表1所示，3个结局指标调整后的HR比未调整的HR小（远离“1”）。

表1. EMPHASIS-HF研究

与定量结局（方差分析或协方差分析）相似，对于二分类（Logistic回归）或时间-事件类结局（Cox等比例风险模型）在调整基线数据时，并不会显著提高效应值（OR/RR/HR）的估计精确度（置信区间仅仅变小了一点）；一定程度上，相应的点估计值会倾向于远离零假设，即组间疗效有差异。

例如，CHARM研究^[3]评价坎地沙坦对慢性心衰患者的获益情况，共纳入7599名患者。研究发现，和安慰剂组相比，心衰患者在常规治疗的基础上加用坎地沙坦治疗随访3.2年后，未调整基线的全因死亡风险并没有显著降低（HR=0.90, 95%CI: 0.83-1.00, P=0.055）。

然而，根据预先制定的分析计划，在调整了基线后，组间差异具有统计学意义（HR=0.90, 95%CI: 0.82-0.99, P=0.032）。基线调整确实得到了一个更精确的效应值（HR）估计，但是据此并不足以支持一个令人信服的、临床认可的获益效应（坎地沙坦可减少心衰患者的全因死亡）。

事实上，RCT采用随机化分组保证了组间基线数据有良好的可比性。因此，对于临床硬终点事件进行基线调整的作用是十分有限的。

2. 哪些基线变量可能需要被调整？

分层随机通常用来减少治疗组间某变量不平衡的可能性，分层变量通常会在主要分析中作为协变量处理。IMPROVE-IT研究^[4]关注辛伐他汀基础上联用依折麦布是否能够降低急性冠脉综合征（ACS）患者的心血管事件。

分层因素包括有无降脂治疗、急性冠脉综合症类型以及是否参与了其他试验。值得注意的是，这些都不是影响ACS预后最重要的变量（年龄才是最强的影响因素）。尽管对于这些分层因素进行调整并没有什么坏处，但是其作用也是有限的。

GISSI-HF研究^[5]评价了纯化n-3多不饱和脂肪酸对心力衰竭的治疗作用，研究者调整了随机分组后基线不可比的变量（P<0.01）。[有小伙伴会问啦，RCT都实现了随机分组怎么还出现基线不可比？好问题！这种时候我们可以认为这是by chance“偶然”的结果（小概率事件居然发生啦！），当然前提是排除了假随机化或随机化失败，以及小样本的情况~]。

但是这里除了统计学考虑外，更重要地是确保被调整的协变量与研究对象的预后相关。如果研究者错误地选择了那些与终点事件无关的变量进行调整，那么这种调整所带来的改变是可以忽略不计的。

总的来说，统计分析方案中制定合理的基线调整仍然值得去做，它在不增加额外成本的情况下，在一定程度上提高了检验效能，让效应值的估计更加精确。

当然也有如下原则需要特别注意：

(1) 基于前期证据，研究者应该明确哪些协变量与患者预后之间存在关联，明确这些协变量在基线时所有研究对象都被采集了；

(2) 在统计分析方案中，明确协变量调整方法。例如，年龄既可以设定为连续性协变量，也可以是分类变量（年龄组），这种变量处理必须预先设定好；

(3) 协变量的事后调整（例如，调整基线不可比的变量）应避免出现在主要分析中，因为这种做法可能会被认为故意增加获得阳性结果的可能性；

(4) 协变量调整前后的结果都应该被展示出来。如果能够证明待调整协变量与结局密切相关，统计分析方案可以把协变量调整作为主要分析的一部分。

亚组分析

一项临床试验所招募到的研究对象并不是完全一致的，比如说研究对象的疾病史，人口统计学特征以及其他基线资料都可能存在较大的差异。因此，亚组分析就显得尤为重要——可以验证总体结果是否适用于全部研究对象，换句话说，真实的临床疗效是否依赖于研究对象特定的基线特征。

亚组分析的作用不小，但是也面临很多问题：

(1) 临床试验是以主要终点（分析）作出假设检验和计算样本量，不可避免地，会缺少足够的检验效能来发现亚组效应；

(2) 亚组分析通常不会得到一个确证性的结果，很多时候还需要进一步探讨和验证，此时研究者需要避免对这样结果进行错误或过度解读；

(3) (有无)统计学意义在亚组内比较并不能够说明亚组效应，而是需要进行交互作用检验来直接推断临床疗效是否在不同亚组中存在差异。

来看几个实例，PARADIGM-HF研究^[6]旨在探讨LCZ696能否替代依那普利（传统用药）治疗慢性心衰患者。如图1所示（极力推荐使用森林图，形象直观~~~），多数亚组分析结果支持LCZ696在主要终点和心血管死亡方面的获益要优于依那普利。

0 (1).jpeg

图1. PARADIGM-HF研究的亚组分析

但是仔细浏览图1，不难发现HR差别很大，尤其是对于样本量较小的亚组而言置信区间很宽。一些HR的95%CI包含了“1”，提示LCZ696与依那普利在这些亚组中的疗效并没有显著差异(P>0.05)。在小样本组中，这种情况是很容易出现，并且无法帮助解读亚组分析的结果（研究者不能武断地认为不同治疗组疗效没有差别）。

这时候交互作用的检验结果能够说明不同亚组的HR差异是否来源于偶然误差(图1)。例如，在主要终点方面，NYHA 1/2级和3/4级LCZ696与依那普利两组疗效差异并不一致(P=0.03)，提示LCZ696在症状较轻的患者中获益更加明显。考虑到18个亚组分析中仅出现1 个亚组交互作用检验P<0.05，推断这很有可能是由于偶然误差导致的。因此，这些亚组分析结果还是与整体结果一致。

如果RCT的主要终点是阴性的，可以尝试进行亚组分析，进一步探索是否在某个特定的亚组中临床疗效是有差别的。当然，在这种情况下，亚组分析结果的解读需要特别谨慎。

例如，CHARISMA研究^[7]评价了氯吡格雷治疗动脉粥样化血栓高危人群的获益，共纳入15603例，平均随访28个月。氯吡格雷组与安慰剂组主要复合终点(心血管死亡、心梗或卒中)发生率无显著差异(6.8% vs. 7.3%，P=0.22)，但是在有症状的患者中(占全部病例的78%)，氯吡格雷的获益似乎更大(6.9% vs. 7.9%，P=0.046)；无症状的患者中结果恰恰相反(6.6% vs. 5.5%，P=0.02)，交互作用检验P=0.045。

研究者在报告结果时强调了氯吡格雷在有症状人群中获益更高，但是有批评者认为 “这种情况下把有意义的亚组分析结果报告出来的方式应该被抵制”，因为所得到的P值都处于临界值，并且从生物学上也令人难以置信——一个真实的临床疗效居然在不同亚组中有相反的结果！

当然，也会碰到主要终点结果是阳性的，但是在各亚组中没有观察到疗效差异。例如，SPIRIT研究^[8]发现，与传统药物洗脱支架（PES）相比，依维莫司冠脉洗脱支架系统(EES)显示出较低的心血管不良事件发生率(4.2% vs. 6.8%，P=0.001)。

然而，亚组分析显示糖尿病患者中(占全部病例的30%)并未显示两组疗效存在显著差异(6.4% vs. 6.9%)。当然这个发现本身而言并不是一个决定性的证据，需要更多的研究来验证这一点。

一项纳入4个RCT研究的Meta分析^[9]显示，EES在非糖尿病患者中表现更加优异，但是在糖尿病患者中并没有观察到这一点。（图2）

0 (2).jpeg